旋转位置编码的发展

旋转位置编码(RoPE)目前已被广泛应用于主流大模型中,但是其存在外推性差的缺点,即在模型遇到输入长度超过训练长度时,模型性能会急剧下降。为了解决这个问题,出现了多个方法,如线性插值、NTK-Aware插值、NTK-by-parts、Dynamic NTK、YaRN。 关于RoPE原理,参考这篇文章:[RoPE](./2024-01-04-rotary-position-embedding- ...

Rotary position embedding in llama

在处理词元序列时,自注意力机制因为并行计算而放弃了顺序操作,模型在学习过程中虽然可以捕获不同元素之间的关系,但是无法得知各种元素之间的相对位置信息。为了解决这个问题,位置编码被引入,为模型提供关于元素在序列中位置的信息。 正弦余弦位置编码 transformers使用了正弦和余弦的位置编码。 用i表示词元在序列中的位置,d表示编码维度,使用成对的正弦和余弦函数,2j表示偶数维度, ...